Recent methods for deep metric learning have been focusing on designing different contrastive loss functions between positive and negative pairs of samples so that the learned feature embedding is able to pull positive samples of the same class closer and push negative samples from different classes away from each other. In this work, we recognize that there is a significant semantic gap between features at the intermediate feature layer and class labels at the final output layer. To bridge this gap, we develop a contrastive Bayesian analysis to characterize and model the posterior probabilities of image labels conditioned by their features similarity in a contrastive learning setting. This contrastive Bayesian analysis leads to a new loss function for deep metric learning. To improve the generalization capability of the proposed method onto new classes, we further extend the contrastive Bayesian loss with a metric variance constraint. Our experimental results and ablation studies demonstrate that the proposed contrastive Bayesian metric learning method significantly improves the performance of deep metric learning in both supervised and pseudo-supervised scenarios, outperforming existing methods by a large margin.
translated by 谷歌翻译
在计算机视觉中,多标签分类(包括零击的多标签分类)是具有许多真实应用程序的重要任务。在本文中,我们提出了一种新颖的算法,对齐双模态分类器(ADDS),其中包括一个双模式解码器(DM-DECODER),具有视觉和文本特征之间的对齐方式,用于多标签分类任务。此外,我们设计了一种简单但有效的方法,称为金字塔 - 福音,以提高分辨率高的输入的性能。在标准的多标签基准数据集(MS-Coco和NUS范围内)进行的广泛实验表明,我们的方法显着胜过以前的方法,并为常规多标签分类,零发射的多标签提供最先进的性能分类和一种称为单一标签分类的极端情况,其中在单标签数据集(Imagenet-1K,Imagenet-21K)上训练的模型在多标签的模型(MS-Coco和NUS范围内)进行了测试。我们还分析了视觉文本一致性如何有助于提出的方法,验证DM码头的重要性,并证明了金字塔 - 反向视觉变压器的有效性。
translated by 谷歌翻译
由于其广泛的应用,尤其是在现场理解领域,因此在3D点云上进行的实例细分一直在吸引越来越多的关注。但是,大多数现有方法都需要完全注释培训数据。在点级的手动准备地面真相标签非常繁琐且劳动密集型。为了解决这个问题,我们提出了一种新颖的弱监督方法RWSEG,该方法仅需要用一个点标记一个对象。有了这些稀疏的标签,我们使用自我注意事项和随机步行引入了一个带有两个分支的统一框架,分别将语义和实例信息分别传播到未知区域。此外,我们提出了一个跨画竞争的随机步行(CGCRW)算法,该算法鼓励不同实例图之间的竞争以解决紧密放置对象中的歧义并改善实例分配的性能。 RWSEG可以生成定性实例级伪标签。 Scannet-V2和S3DIS数据集的实验结果表明,我们的方法通过完全监督的方法实现了可比的性能,并且通过大幅度优于先前的弱监督方法。这是弥合该地区弱和全面监督之间差距的第一项工作。
translated by 谷歌翻译
为了以计算有效的方式部署深层模型,经常使用模型量化方法。此外,由于新的硬件支持混合的位算术操作,最近对混合精度量化(MPQ)的研究开始通过搜索网络中不同层和模块的优化位低宽,从而完全利用表示的能力。但是,先前的研究主要是在使用强化学习,神经体系结构搜索等的昂贵方案中搜索MPQ策略,或者简单地利用部分先验知识来进行位于刻度分配,这可能是有偏见和优势的。在这项工作中,我们提出了一种新颖的随机量化量化(SDQ)方法,该方法可以在更灵活,更全球优化的空间中自动学习MPQ策略,并具有更平滑的梯度近似。特别是,可区分的位宽参数(DBP)被用作相邻位意选择之间随机量化的概率因素。在获取最佳MPQ策略之后,我们将进一步训练网络使用熵感知的bin正则化和知识蒸馏。我们广泛评估了不同硬件(GPU和FPGA)和数据集的多个网络的方法。 SDQ的表现优于所有最先进的混合或单个精度量化,甚至比较低的位置量化,甚至比各种重新网络和Mobilenet家族的全精度对应物更好,这表明了我们方法的有效性和优势。
translated by 谷歌翻译
我们在野外的一对立体声RGB图像上介绍了基于类别级3D对象检测和隐式形状估计的基于学习的框架。传统的立体声3D对象检测方法仅使用3D边界框来描述检测到的对象,无法推断出完全的表面几何形状,这使得创造难以创造逼真的户外沉浸体验。相比之下,我们提出了一种新的模型S-3D-RCNN,可以执行精确的本地化,并为检测到的对象提供完整和分辨不可行的形状描述。我们首先使用全局本地框架从形状重建估计对象坐标系估计。然后,我们提出了一种新的实例级网络,通过从立体声区域的基于点的表示来解决未经遵守的表面幻觉问题,并且Infers具有预测的完整表面几何形状的隐式形状码。广泛的实验使用Kitti基准测试的现有和新指标验证我们的方法的卓越性能。此HTTPS URL可提供代码和预先接受的型号。
translated by 谷歌翻译
KNN分类是一种即兴的学习模式,其中仅当预测测试数据设置适当的K值并从整个训练样本空间搜索K最近邻居时,将它们引用到KNN分类的惰性部分。这一懒散的部分是应用KNN分类的瓶颈问题,因为完全搜索了K最近邻居。在本文中,提出了一步计算来取代KNN分类的惰性部分。一步计算实际上将惰性部分转换为矩阵计算,如下所示。考虑到测试数据,首先应用训练样本以将测试数据与最小二乘损耗功能拟合。然后,通过根据它们对测试数据的影响来加权所有训练样本来生成关系矩阵。最后,采用一个组套索来对关系矩阵进行稀疏学习。以这种方式,设置k值和搜索k最近邻居都集成到统一的计算。此外,提出了一种新的分类规则来改善单步核武器分类的性能。提出的方法是通过实验评估的,并证明了一步核武器分类是有效和有前途的
translated by 谷歌翻译
本文研究了用于无监督场景的图形神经网络(GNN)的节点表示。具体地,我们推导了理论分析,并在不适当定义的监督信号时,在不同的图形数据集中提供关于GNN的非稳定性能的实证演示。 GNN的性能取决于节点特征平滑度和图形结构的局部性。为了平滑通过图形拓扑和节点功能测量的节点接近度的差异,我们提出了帆 - 一个小说\下划线{s} elf- \下划线{a} u段图对比度\下划线{i} ve \ nignline {l}收入框架,使用两个互补的自蒸馏正则化模块,\ emph {Ie},内部和图间知识蒸馏。我们展示了帆在各种图形应用中的竞争性能。即使使用单个GNN层,Sail也在各种基准数据集中持续竞争或更好的性能,与最先进的基线相比。
translated by 谷歌翻译
How to effectively leverage the plentiful existing datasets to train a robust and high-performance model is of great significance for many practical applications. However, a model trained on a naive merge of different datasets tends to obtain poor performance due to annotation conflicts and domain divergence.In this paper, we attempt to train a unified model that is expected to perform well across domains on several popularity segmentation datasets.We conduct a detailed analysis of the impact on model generalization from three aspects of data augmentation, training strategies, and model capacity.Based on the analysis, we propose a robust solution that is able to improve model generalization across domains.Our solution ranks 2nd on RVC 2022 semantic segmentation task, with a dataset only 1/3 size of the 1st model used.
translated by 谷歌翻译
我们介绍了第一个机器学习引力波搜索模拟数据挑战(MLGWSC-1)的结果。在这一挑战中,参与的小组必须从二进制黑洞合并中识别出复杂性和持续时间逐渐嵌入在逐渐更现实的噪声中的引力波信号。 4个提供的数据集中的决赛包含O3A观察的真实噪声,并发出了20秒的持续时间,其中包含进动效应和高阶模式。我们介绍了在提交前从参与者未知的1个月的测试数据中得出的6个输入算法的平均灵敏度距离和运行时。其中4个是机器学习算法。我们发现,最好的基于机器学习的算法能够以每月1个的错误警报率(FAR)的速度(FAR)实现基于匹配过滤的生产分析的敏感距离的95%。相反,对于真实的噪音,领先的机器学习搜索获得了70%。为了更高的范围,敏感距离缩小的差异缩小到某些数据集上选择机器学习提交的范围$ \ geq 200 $以优于传统搜索算法的程度。我们的结果表明,当前的机器学习搜索算法可能已经在有限的参数区域中对某些生产设置有用。为了改善最新的技术,机器学习算法需要降低他们能够检测信号并将其有效性扩展到参数空间区域的虚假警报率,在这些区域中,建模的搜索在计算上很昂贵。根据我们的发现,我们汇编了我们认为,将机器学习搜索提升到重力波信号检测中的宝贵工具,我们认为这是最重要的研究领域。
translated by 谷歌翻译
本文旨在解释刚被二进制标签监督时,深泡检测模型如何学习图像的人工制品特征。为此,从图像匹配的角度提出了三个假设,如下所示。 1. DeepFake检测模型指出了基于既不是与源相关又不相关的视觉概念的真实/假图像,也就是说,考虑到与伪影这样的视觉概念。 2.除了对二进制标签的监督外,DeepFake检测模型还通过训练集中的FST匹配(即匹配的伪造,源,目标图像)隐含地学习与伪影相关的视觉概念。 3.通过原始训练集中的FST匹配,隐式学习的人工构图概念容易受到视频压缩的影响。在实验中,在各种DNN中验证了上述假设。此外,基于这种理解,我们提出了FST匹配的DeepFake检测模型,以提高压缩视频中伪造检测的性能。实验结果表明,我们的方法实现了出色的性能,尤其是在高度压缩的(例如C40)视频上。
translated by 谷歌翻译